查看原文
其他

变革新药发现模式!被称为下一次工业革命的“计算生物学”究竟是什么?

​于建林 计算材料学 2023-04-30

转载自公众平台:深究科学

本文以传播知识为目的,如有侵请后台联系我们,我们将在第一时间删除。

导读


2022年年底,著名结构生物学家,美国国家科学院外籍院士、美国艺术与科学院外籍院士颜宁教授宣布将辞去普林斯顿大学教授一职,拟全职回国协助深圳创建深圳医学科学院,并担任创始院长。
本消息已经发布,引起国内一片轰动。

颜宁从事的是结构生物学领域,近年来由于计算生物学的兴起,特别是AlphaFold2在蛋白质结构预测的惊人表现,让很多人认为计算生物学将替代颜宁为代表的传统生物学工作,也让该回国事件处在了舆论旋涡的中心。
近年来,计算生物学无疑是人工智能领域的一大热门话题。AlphaFold的出现,改变了包括生物信息学、计算生物学、系统生物学在内的生物信息学科。从统计学到数据驱动的知识发现转变,未来在疾病发现(DNA测序、质谱、转录组等等方法)、疾病机理、免疫治疗、药物发现、药物设计、药物试验等等,计算生物学都有可能出现新的突破。

于建林(高特佳投资执行合伙人)| 撰文
01

计算生物学概念


计算生物学(Computational Biology)是生物学的一个分支,是指开发和应用数据分析及理论的方法、数学建模和计算机仿真技术等,用于生物学、行为学和社会群体系统的研究的一门学科。计算生物学的目的不仅仅局限于测序,而是运用计算机的思维解决生物问题,用计算机的语言和数学的逻辑构建和描述并模拟出生物世界。

相对于生物信息学,计算生物学的层次更高。虽然两者之间界限模糊,但生物信息学略微偏向于生物,而计算生物学略微偏向计算机。生物信息学侧重于数据的提取、挖掘,而计算生物学侧重对数据的处理、运用。


02

计算生物学的技术发展


随着20世纪80年代计算机科学与技术的发展,以及生物化学、分子生物学的系统论建立,美国在1989年召开了生物化学系统论与生物数学的国际会议,讨论了生物系统理论的计算机模型研究方法,开创了计算生物学
后来,这一早期的计算系统生物学家研讨会,改为国际分子系统生物学会议(ICMSB)。此后,计算生物学与化学生物学和合成生物学一起,构成系统生物学与系统生物工程的方法体系,即系统生物技术带来了21世纪系统生物科学的全球迅速发展时期。


2015年后,越来越多的专家称“所有的生物学都是计算生物学” (All biology is computational biology)。Hallam Stevens 也在《Life Out of Sequence》提出“生物学使自己适应了计算机,而不是计算机适应了生物学”这一历史定位。

03
计算生物学的研究内容


计算生物学的研究内容主要包括生物序列的片段拼接、序列对接、基因识别、种族树的建构、蛋白质结构预测、生物数据库等。随着科学技术的发展,计算生物学的研究内容也越来越广泛。例如,对生物等效性的研究,皮肤的电阻,骨关节炎的治疗,哺乳动物的睡眠等等。


随着生物学数据量的不断增长,每14个月基因研究产生的数据就会翻一番,海量的数据单单依靠观察和实验已无能为力。这时,计算生物学的数据库技术这时显示了强大的威力,例如CATH蛋白结构分类数据库,果蝇交互数据库。


计算生物学在基因表达方面显示了强大的研究能力。人类长达30个亿DNA序列中只有3-5%是基因。阐明人体中全部基因的位置,结构,功能,表达等,计算能力扮演了一个重要的角色,因此计算生物学的一个重要应用就是模拟基因表达数据集。


在蛋白质结构预测方面,计算生物学更突显出其低成本高效率的特点。由于蛋白质的很多特性、功能是和它实际的三维结构及其相关的,任意给一段蛋白质序列,生物学家就可以用传统的生物学方法求出其结构,但这不但成本高而且费时,计算生物学的蛋白质结构预测工具通过序列分析可以直接得出其结构,如,CYTO: 人类T细胞中的因果蛋白质信号网络。


在过去三年里,计算生物学已经触及了每个行业。目前,至少有90家价值超过200亿美元的公司正在关注计算生物学领域:农业、工业、制药、能源公司,加上所有大型科技公司,如亚马逊AWS,谷歌和微软(微软正在开发一种基于DNA的数据存储系统,希望能够取代传统的存储介质)。


计算生物学的价值划分为科研价值和应用价值两部分。目前主要集中在前者,表现为提升生物实验效率及精度,补充实验依据等。后者主要体现为AI制药领域的化合物筛选等。


请手机横屏浏

资料来源:量子位
05
市场空间与行业格局


根据美国QY Research Medical发布的市场研究报告数据显示,2021年全球计算生物学市场规模为53.5亿美元,收入复合增长率将达到21.0%。计算生物学还处于快速增长的阶段,市场潜力巨大。


计算生物学市场收入增长将受到各种因素的推动,例如用于基因组测序的改进计算工具的可用性增加,基因工程和新药发现的研发投资增加,计算生物学CRO服务的需求增加,以及对研究生物数据的需求也在不断增长。


同时也应考虑到计算生物学市场增长的限制因素。熟练专业人员的缺乏和标准化的缺乏一定程度上限制了计算生物学的市场收入增长。计算生物学的研究需要足够的数学、统计学和编程能力,以及对云平台的深刻理解以及对生物科学的深入了解。此外,计算生物学是一门跨学科学科,缺乏标准课程将阻碍年轻毕业生的技能发展。此外,计算生物学缺乏诸如检测过敏反应和其他术后并发症等并发症的标准协议。预计这些因素将阻碍市场的收入增长。


全球计算生物学市场根据应用分类可细分为细胞和生物模拟、药物发现、疾病建模等三个部分。细胞和生物模拟部分进一步细分为计算基因组学、蛋白质组学、药物基因组学等。细胞和生物模拟部分预计将占据最大的市场份额。根据区域划分,预计北美市场将占计算生物学市场的最大收入份额。IT行业的快速增长和在该地区开展业务的便利性推动了众多致力于开发模拟软件和药物开发的初创企业崛起。欧洲市场将实现快速的收入复合年增长率,这是由于该地区各国政府为提高研究和工业能力而增加的投资,以及工业界和学术界在进行研发方面的合作增加。亚太地区市场将实现稳定的复合年增长率,导致药物发现和疾病建模中对计算生物学的需求不断增长,从而推动亚太地区计算生物学市场的稳定增长。


近年来,将计算生物学作为其研发甚至产品核心要素的公司越来越多。其中包括Illumina、Roche、Google Health、阿斯利康 等巨头以及Sano Genetics、 Inivata、 Eagle Genomics、 Genomics plc、 Cambridge Cancer Genomics、 Seven Bridges Genomics等小型企业。


计算生物行业同时涉及2B和2C的商业模式,主要为算法授权、生物资产和软件使用。我国目前主要为前两种。鉴于软件平台和先锋项目能够形成技术及业务迭代闭环,预计在出现大量优势自研算法后,软件平台所占的比重将有明显上升。




由于计算生物学本身属于工具型学科,可以计算生物学的产业链上下游分为底层支撑和上层相关从业公司


资料来源:量子位


在底层支撑的产业链中,生物数据及算法框架成为两大关键。数据方面,短期来看,高质量标注数据不足为第三方生物数据库提供了市场空间。长期来看,智能实验室的构建、高通量的生物实验能力、乃至于自研的样本提取处理方法等,对于自有数据至关重要。


上层从业公司的产业链可分为两类方向:一类是以落地场景为核心主营业务,另一类则是以计算生物学能力作为核心业务的拓展。



在计算生物学领域,我国企业在数量、发展程度、性质、布局场景上与国外水平差距明显,约在5年左右。主要体现在两个方面:一方面,国内的商业化场景在数量上和国外有较大差距。目前,国内以AI制药为核心场景,生物模拟、疾病建模等场景差距较大。在国外,各初创公司已广泛涵盖各类场景,在公司融资规模、产品化程度、落地推广程度上也已跨过了从0到1阶段。另一方面,国内外在软件相关场景上的差异更为明显。国外大量公司在提供特定建模的计算生物学软件领域已经达到一定高度,并实现了对外商用;而我国有能力的从业公司大多选择内部应用,大多数已开源平台尚未达到可收费水平。

06
企业融资情况


计算生物学领域的投融资金额和数量在最近的三年里有突飞猛进的增长。2019年以来,首次完成种子轮/A轮融资的707家生物制药和研发工具公司中,计算生物学公司有129家(18%)。2021年,计算生物学公司的投资额激增,几乎是2019年和2020年募集资金总和的两倍。美国马萨诸塞州和北加州的计算生物学公司融资最多,从2020年到2021年,种子轮/A轮交易额激增至3倍。值得注意的是,2021年英国也有8宗交易,而2020年一宗也没有。在这129家计算生物学公司中,89家(69%)在其技术中纳入了机器学习或人工智能算法,最常应用于基因组分析,有助于小分子疗法的发现。


计算生物学领域的公司融资轮次均偏向早期。融资时的公司估值水平,在生物制药领域平均数在1200万美元至1400万美元之间,在研发工具领域平均数在800万美元至1200万美元之间;融资额度大都在500万美元水平。


对于在过去三年里已经完成种子轮/A轮融资和下一轮融资的计算生物学公司而言,估值均有了大幅提升,提升倍数中位数为2.1倍。生命科学领域的传统投资机构和跨界投资机构参与许多后续融资,表明他们相信计算生物学将在未来的药物发现和开发中发挥不可或缺的作用。


计算生物学的公司往往须寻求合作来拓展平台价值,并同时展示公司在制药行业的地位,以营收/里程碑事件的回报抵消运营成本,从而激发并购意向。例如:2021年Outpace Bio (生物制药公司)完成了3000万美元的A轮融资,并与Lyell公司合作,将癌症免疫疗法推向市场。


在计算生物学公司上市的情况来看,2019年以来,52家市值超10亿美元的上市生物制药和研发工具公司中,计算生物学公司有13家(占比25%)。这些公司上市后的股价涨幅巨大,总市值增长至3.7倍,上市后股价涨幅中位数为54%。


请手机横屏浏览


但是,研究机构认为该领域的投资以后可能会减少,B轮及后续轮次的融资估值可能降低。计算生物学公司的IPO数量将减少约50%。IPO将更有利于差异化和特色明显、且拥有强大内部财力支持的公司。2022年及以后,并购应该会回升,但将更多地集中在股价低迷的新上市公司和临床前阶段的私有公司。

07

在重症救治方面,上海面临着巨大压力


从现状分析来看,计算生物学行业离商业化爆发还需至少3-5年时间。以最终落地应用和商业化为核心导向,可以将计算生物学的发展阶段分为三个阶段:2025年前的基础积淀期;2025-2030的普遍验证期;2030年后的全面发展期。


2025年以前为基础沉淀期,计算生物学的发展的将处于相当早期,并在数据、设备、算法等基础条件的积累下缓慢攀升。


2025年到2030年进入多点验证期,除去目前最为常见的基因组学,更多的组学数据、乃至于交叉组学将开始加速进展,计算生物学能够从更多角度创造应用价值。除去蛋白质结构预测问题之外,也有望出现下一个well-defined(定义比较清晰的)的问题,更多生物IT公司关注到计算生物学这一领域。


2030年之后开始全面发展,在此期间,计算生物学将迎来指数级的增长,成为Biotech领域必备的底层基础设施,相关应用场景普遍实现商业化,基于计算生物学的一系列应用也会在生物医药领域占据相当份额。



智库预测,计算生物学软件平台将产生相当的市场规模,以及该领域内研究的问题将逐渐向系统化、底层化、更适用于直接落地的方向发展。眼下,要想实现以上期待,年轻的计算生物学还有着以下几大关键瓶颈待突破。有的问题为该行业独有,也有的是整个AI科学领域都存在的:


一是对生物底层原理的明确。目前,行业还有大量关于生物学本身的底层机制待研究透彻,在进行模型构建、生物验证及人体落地时,需要引入这次知识来减少不符合领域认知的偏差,保证准确率。


二是统一的计算和数据框架。基于微观手段,一些生物学上的特定问题能够得到解决,但要最终落地,所需的模型需要能够覆盖多组学数据、多环节及功能并行。此外,需要保证计算生物学中的多种异构数据,例如图像、视频、分子图谱、DNA 代码、基因表达、电信号等,有明确的标准和通用格式,以便在不同算法和平台之间互操作。


三是消费级数据的获取。在分析师看来,基因组学相关的计算生物学,其关键的产业发展阶段是数据采集达到了消费级水准。


四是工程落地能力。目前学术上有很多机器学习算法和模型已经相当成熟,关键是如何在具备底层数据的情况下,加入对生物学的具体理解,进行精细地调整。


最后,数据隐私的问题,以及如何让相关模型具备可解释性,取得这一特殊行业的信任问题。


总之,目前计算生物学还主要停留在实验室和研究机构中,处于基础沉淀期,距离开始产业化还有3-5年。
长期来看,积累多组学数据、探索可变现场景、持续优化计算生物学软件、提升研究层级是计算生物学领域长期发展的四大关键趋势。

注:本文来自“高特佳投资”。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存